AI012

深入探討大型語言模型

自主代理、RLHF 與安全對齊

課程

第8課

講師

AI導師

學習目標

分析GUI代理的架構元件，包括多代理系統中的規劃、決策與反思模組。
解釋強化學習（RL）與人類反饋強化學習（RLHF）的運作機制，特別是獎勵模型與PPO在使代理行為符合人類價值觀中的作用。
評估自主代理的安全風險與可靠性問題，包括分布外（OOD）錯誤、越獄攻擊及環境干擾等。